Current Biology:决策中预测误差的神经信号受到行动执行失败的调控
关注上方“功能磁共振”即可查看更多原创文章,文末浏览近期脑影像相关课程及服务。
摘要:决定通过行为实施,行为很可能会出错。当预测的结果没有实现时,个体不仅会对选择本身是否是欠佳的敏感,也会对行为本身是否被成功执行敏感。行动执行与行动选择之间的智能分配对学习者具有明显的生态效用。为了研究该问题,研究者使用改编过的强化学习任务,该任务通过反馈表明负面预测错误是否与执行错误相关联。使用fMRI,探究人类纹状体中预测误差计算是否会被行动执行结果调节。执行发生错误相比于执行成功,被试对没有得到奖励的结果更宽容。与此行为一致,模型驱动的神经活动分析揭示了与执行失败后纹状体中的负性奖励预测错误相关的信号衰减。这些结果表明在评估瞬时奖励结果期间,中脑纹状体多巴胺系统中的预测误差整合了高水平信息。
研究背景
在有指导的学习背景下,期待的结果未能发生,我们总会迫使自己知道是什么原因未能成功。举个例子,如果对方球手击出全垒打,棒球投手需要为这个负面结果做出合理的判断:决定的偏差是由于行为选择(投掷曲线球而不是快球)还是决定的执行(让曲线球按照计划突破垒板而不是远离击球手)?纹状体是强化学习的重要区域,本研究纹状体中的信号对该分离敏感。
纹状体被认为接收奖励预测误差(reward prediction error,RPE)的信号,奖励预测误差信号来自于中脑多巴胺神经元,是指接受到的和期待的奖励之间的差异。普遍认为奖励预测误差是不受模型影响的误差,是与某一特定行为相关的标量,基于过去奖励的动态平均并取决于本次行为。但最新的研究认为,纹状体中奖励预测误差信号也受到模型依赖的信息影响,预测误差基于未来状态的内部模拟,受到一系列的认知因素的影响,如注意、情景记忆、工作记忆以及分层的任务结构。因此,纹状体RPE中携带的信息可能比简单的无模型计算更复杂,并且可能受到各种自上而下加工的影响。并且这些额外的自上而下加工的影响可以通过识别与任务相关的变量或特征来服务于基于纹状体的学习系统。
迄今为止,决策相关的神经研究已经使用了按键或杠杆,使被试指出他们的选择,但这些条件通常排除了执行误差。同样这些结果由于决策本身(例如,选择刺激A而不是刺激B),而不是决策的执行(例如,没能更好地获取刺激A)。为了引入后者这种负性的结果:本研究使用传统2-arm bandit任务,要求被试通过肢体控制选择刺激来做出最后决定,但手臂的运动不在视线范围内。
一种研究假设为:纹状体预测误差主要与行为结果连接,即,没有获得奖励是执行或者选择失败的结果,纹状体在这两种情况下将会有相似的反应。另一种假设:纹状体的预测误差对误差来源敏感。使用fMRI测量纹状体的奖励预测误差,包括选择误差和执行误差。
研究方法
被试:共有24名被试参与实验(11名女性;年龄在18-24岁)。
实验任务:
在每一个实验试次,呈现3个实现刺激,如下图所示,被试要求选择其中一个,并且被告知, 每个刺激都有产生奖励的可能性, 他们需要尽可能多地赚到钱。实验试次之间是独立的。
在原来的实验范式里,被试靠按键反应决策,在本实验中,被试需要通过右手在触摸板上移动来接近要选择的刺激。被试右手被放在触摸板上,触摸板放在被试的膝盖处,他们的手和触摸板不会出现在实现之内。
有三种结果:报酬增加(如图中绿色)、报酬减少(如图中橙色)以及错过(Miss,如图中紫色):光标在选定的刺激之外(执行失误)。对于三个刺激,获得奖励的概率均是0.4,而Rew-和Miss的概率会变化(三种变化分别为:0.5/0.1,0.3/0.3,0.1/0.5)。
图1 实验流程图
研究结果
行为结果如下图所示
图2 行为结果和模型结果
(A)被试选择不同Miss概率试次刺激的误差。
(B)从拟合模型获得的偏差。
(C)由先前结果导致的平均转换概率。
(D)从拟合模型的模拟转换概率。
(E)转换行为的逻辑回归的权重,蓝条反映统计上显著的预测因子。
(F)先前试验中,以光标误差为函数,到达角变化的线性回归。暗线反映了平均回归线; 浅灰色线条是单独的回归线条,误差棒表示1个SEM。
影像结果
图3 全脑试次结果对比
(A)全脑在不同实验条件下激活对比
(B)四个与奖励相关的ROI,在Rew-和Miss试次中的beta权重
图4.纹状体中的奖励预测误差对误差类型敏感
(A)纹状体ROI内的平均奖励预测误差(RPE)β权重,按照试次结果分开。
(B&C)纹状体RPE测试曲线在Miss试次(y轴)之间的脑—行为相关性
(B)逻辑回归:奖励灵敏度值对转换行为的影响
(C)赢得强化学习模型拟合的Miss试次学习率参数
总结与讨论
目前的结果表明,感知的运动执行误差影响人类纹状体中的奖励预测误差(RPE)计算。当被试正确执行他们的决定但没有得到奖励时,纹状体可预测地表示相应的负性RPE,与之前的许多实验工作一致。然而,在行动执行失败而未得到奖励的试次中,纹状体不能稳定地产生相应的负RPE。这些结果表明,纹状体可能获得有关决定是否得到适当执行的信息,并反映在被试的选择行为中,并且可以通过强化学习模型来描述,其中决策执行误差需要特殊的步长参数。此外,行为方式的个体差异与执行错误后纹状体RPE编码的差异相关。
近年来对工具性学习的计算细节研究进展迅速,其中奖励预测误差,已被证明比以前认为的更复杂。本研究结果表明,在成功实施了一个选择时,预测误差更新该行为中做出选择的价值,具体来讲,当一个明显的执行错误发生时,就会停止更新对价值的表征。这些结果可能会增加对强化学习如何在更自然的环境中进行的理解,其中成功的动作执行往往不是微不足道的。
参考文献
McDougle, S. D., Butcher, P. A., Parvin, D. E., Mushtaq, F., Niv, Y., Ivry, R. B., & Taylor, J. A. (2019). Neural Signatures of Prediction Errors in a Decision-Making Task Are Modulated by Action Execution Failures. Current Biology, 29(10), 474361.
培训信息
第二十届脑电信号数据处理培训班(专题班)
科研服务
灌注数据处理服务
EEG/ERP数据处理服务
脑电数据预处理:使用EEGLAB对Neuroscan、Brain Products、EGI、ANT、Biosemi等主流脑电设备采集的脑电数据进行预处理。
ERP成分统计分析:提取ERP成分的波幅和潜伏期,并进行统计分析。
EEG频谱分析:使用傅里叶变换的方法计算脑电各个频段的功率,并进行统计分析;使用短时傅里叶变换、小波变换和希尔伯特变换的方法进行脑电时频分析(如ERD/ERS分析、试次间相位同步分析)。
基于sLORETA的脑电源分析:ERP成分源定位;特定频段EEG源定位;源空间的脑功能连通性分析。
功能连通性分析:使用相关、相干、相位锁定值和格兰杰因果分析研究电极之间功能连通性。
近红外数据处理服务
PET数据处理服务
功能磁共振数据处理
任务态激活脑区分析
任务态E-prime实验实
功能连接分析
局部一致性(ReHo)分析
低频振幅(ALFF/fALFF)分析
基于图论及ICA的脑网络分析
结构磁共振数据处理
基于VBM的灰白质分析
基于Freesurfer的皮层厚度分析
基于FSL的纤维束追踪
详情联系:13381109780(杨老师)